本番環境への移行：デプロイメントのマインドセット

この最終モジュールは、ノートブックで高い精度を達成した成功した研究と、信頼できる実行の間にあるギャップを埋めます。デプロイメントとは、PyTorchモデルを最小限の、自己完結型サービスエンドユーザーに低レイテンシで効率的に予測を提供できる高可用性というプロセスです。

Jupyterノートブックの探索的環境は、本番環境では状態依存的かつ脆弱です。私たちは、探索的なスクリプトから、同時にリクエストを処理し、リソース最適化を行い、大きなシステムとのシームレスな統合が可能な構造的でモジュール型のコンポーネントへとコードを再設計しなければなりません。

低レイテンシ推論：ターゲットのしきい値（例：$50\text{ms}$）以下で一貫した予測時間の達成。リアルタイムアプリケーションにとって不可欠です。

高可用性：信頼性があり、状態なしで、障害からの迅速な回復が可能なようにサービスを設計すること。

再現性：デプロイされたモデルと環境（依存関係、重み、設定）が検証済みの研究結果と正確に一致することを保証すること。

注目点：モデルサービス

学習スクリプト全体をデプロイする代わりに、最小限の自己完結型サービスラッパーをデプロイします。このサービスは以下の3つのタスクのみを処理する必要があります：最適化されたモデルアーティファクトの読み込み、入力の前処理の適用、順伝播の実行による予測の返却。

TERMINALbash — uvicorn-service

> 準備完了。実行するには「デプロイメントフローのシミュレーション」をクリックしてください。

アーティファクトインスペクターライブ

フローをシミュレートして、ロードされた本番用アーティファクトを確認してください。

質問1

Jupyterノートブックのどの特徴が本番環境へのデプロイに不向きでしょうか？

主にPythonコードを使用している

本来状態依存的であり、リソースを大量に消費する

GPUに直接アクセスできない

質問2

デプロイ前にPyTorchモデルをTorchScriptまたはONNXに変換する主な目的は何ですか？

より高速なC++実行と、Python依存性の削減のための最適化

モデルの盗難や逆工程を防ぐため

入力データの前処理を自動的に処理するため

質問3

本番用APIを設計する際、モデルの重みはいつ読み込むべきでしょうか？

サービスの初期化時、一度だけ

すべての予測リクエストの開始時に

サービスへの最初のリクエストを受け取ったとき

チャレンジ：最小サービスの定義

低レイテンシサービスの構造的要件を計画する。

複雑な画像分類モデル（$1\text{GB}$）をデプロイする必要があります。これは特別な画像前処理が必要です。秒間50リクエストを処理できなければなりません。

ステップ1

高いスループットと低い平均レイテンシを確保するために、Pythonスクリプトに必要な最も重要な構造的変更は何ですか？

解答：
コードベースを独立したモジュール（前処理、モデル定義、推論ランナー）に再設計し、すべてのプロセスがコンテナ化のためにパッケージ化されることを確認する。

ステップ2

訓練済みの重み以外に、送信する必要最低限の「アーティファクト」は何ですか？

解答：
前処理に使用される正確なコード／クラス定義とモデルアーキテクチャ定義。これらは重みと結合され、シリアル化されている。